Exemplos no R
Linhas com dados faltantes no dataset ‘airquality’
Coluna específica (supondo que ‘Solar.R’ tenha muitos dados faltantes)
Antes
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
1.00 18.00 31.50 42.13 63.25 168.00 37
Depois
# Removendo observações onde 'Ozone' é NA
airquality_filtered <- airquality |> filter(!is.na(Ozone))
# Criando um modelo de regressão usando 'Wind' como preditor para 'Ozone'
model <- lm(Ozone ~ Wind + Temp, data = airquality_filtered, na.action = na.exclude)
model
Call:
lm(formula = Ozone ~ Wind + Temp, data = airquality_filtered,
na.action = na.exclude)
Coefficients:
(Intercept) Wind Temp
-71.033 -3.055 1.840
# Criando um dataset para as previsões onde 'Ozone' é NA
missing_ozone <- airquality |> filter(is.na(Ozone)) |> select(Wind, Temp)
# Usando o modelo para prever 'Ozone' com base em 'Wind'
predicted_ozone <- predict(model, newdata = missing_ozone)
head(predicted_ozone, 5) 1 2 3 4 5
-11.676727 29.661896 -16.864178 -9.829664 9.413045
Antes
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
1.00 18.00 31.50 42.13 63.25 168.00 37
Depois
Outliers são observações que se desviam significativamente dos outros dados. Eles podem ser resultado de variabilidade no processo de medição ou indicar um erro experimental. A remoção de outliers é importante quando esses valores podem distorcer análises estatísticas e modelos preditivos.
A identificação de outliers pode ser feita através de métodos estatísticos, como a aplicação de regras baseadas em intervalos interquartis (IQR). Após a identificação, os outliers podem ser removidos para melhorar a qualidade dos dados.
O que é IQR: O Intervalo Interquartil (IQR) é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1) dos dados. Representa a faixa média na qual a maioria dos dados se encontra.
Regra do IQR para Outliers:
Por que usar IQR: O IQR é robusto a outliers e fornece um método confiável para identificá-los. É menos afetado por valores extremos do que métodos baseados em média ou desvio padrão.
[1] 45.25
25% 75%
18.00 63.25
25%
-49.875
A remoção de outliers deve ser considerada cuidadosamente, pois pode alterar a estrutura dos dados.
É essencial analisar se os outliers são erros genuínos ou se representam variações importantes a serem estudadas.
Em muitos casos, a remoção de outliers pode levar a análises mais precisas e a modelos mais robustos.